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jj 要 : 面 对 当 前 电力 系统 的 负荷 不 确定 、 新 能 源 并 网 与 “ 双 碳 ”目标 等 现状 ， 在 充分 考虑 供需 双方 福利 前 提 下 ， 
建立 了 智能 电网 背景 下 考虑 负荷 不 确定 与 碳 交 易 的 实时 定价 模型 。 并 基于 强化 学 习 能 够 处 理 变 量 复杂 性 、 非 西非 
线性 问题 优点 ， 采 用 强化 学 习 中 Q 学 习 算 法 对 模型 进行 和 迭代 求解 。 首 先 ， 将 用 户 与 供电 商 实时 交互 过 程 转 换 为 强 
化 学 习 框 架 对 应 的 马尔 可 夫 决 策 过 程 。 其 次 ， 通 过 智能 体 在 动态 环境 中 的 反复 探索 表示 用 户 与 供电 商 的 信息 交互 。 
最 后 ， 通 过 强化 学 习 中 的 Q 学 习 算 法 寻找 最 优 值 即 最 大 社会 福利 值 。 仿 真 结 果 表 明 ， 所 提 实 时 定价 策略 能 够 有 效 
提升 社会 福利 ， 降 低 碳 排放 总 量 ， 这 验证 了 所 提 模 型 和 算法 的 有 效 性 
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Real-time pricing strategy based on reinforcement learning with load uncertainty 


Wang Jinggi, Gao Yan!, Wu Zhiqiang, Li Renjie 
—- (Business School, University of Shanghai for Science & Technology, Shanghai 200093, China) 


Abstract: Facing the current situation of load uncertainty, new energy grid integration, and “dual carbon" target in the power 
system, the paper established a real-time pricing model considering load uncertainty and carbon trading in the context of the 
smart grid with full consideration of the welfare of both supply side and user side. Based on the advantages that reinforcement 
learning can handle variable complexity, non-convex, and nonlinear problems, this paper used the Q-learning algorithm in 
reinforcement learning to solve the model iteratively. Firstly, this paper transformed the real-time interaction process between 
the user and the power supplier into a Markov decision process corresponding to the reinforcement learning framework. 
Secondly, the process represented the information interaction between the user and the power supplier as the iterative 
exploration of the agent in a dynamic environment. Finally, this paper found the optimal value by the Q-learning algorithm in 
reinforcement learning, i. e. , the maximal social welfare value. The simulation results show that the proposed real-time pricing 
strategy can effectively enhance social welfare and reduce total carbon emissions, which verifies the feasibility and 
effectiveness of the proposed model and algorithm. 
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© 0 引言 文献 [4] 首 次 提出 了 以 社会 福利 最 大 化 为 目标 的 实时 定 
p m 价 模型 ， 模 型 同时 考虑 到 供电 商 利 润 和 用 户 福利 ， 采 用 分 布 
e 在 智能 电网 系统 中 ， 电 力 和 信息 的 双向 流动 能 够 兼顾 电 — 式 梯度 下 降 法 求解 ， 数 值 仿真 验证 了 模型 可 实现 削 峰 填 谷 ， 
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力 系 统 经 济 、 高 效 、 环 境 友 好 等 目标 。 随 着 新 能 源 发 电 商 的 。 同时 对 用 户 和 供电 商 两 方 均 有 益 。 在 此 雪 H 上 ， 以 社会 福利 
深入 普及 ， 给 发 电 系统 带 来 了 更 大 的 不 确定 性 。 围 绕 着 发 电 ”最 大 化 作为 目标 函数 的 实时 定价 模型 被 1. 文献 [5] 
商 、 分 布 式 新 能 源 、 碳 交易 市 场 与 用 户 需 求 ， 需 求 侧 管 理 将 。 采用 了 光滑 化 方法 对 现 有 实时 定价 中 常 的 一 次 分 下 六 用 多 
带 来 大 量 的 产业 机 会 。 数 进行 光滑 化 处 理 ， 并 仿真 得 到 用 户 效 用 。 文 献 [0] 以 极 小 
随 着 信息 通信 与 智能 终端 的 发 展 ， 电 力 市 场 中 电价 的 波 ”化 峰 谷 差 为 目标 建立 实时 定价 优化 模型 ， 并 提出 一 种 依赖 在 
动 加 剧 ， 将 增加 普通 用 户 参与 电力 系统 调节 的 意愿 。 对 电力 ” 线 电量 波动 的 同步 扰动 随机 双 近 算法 。 文 献 [7] 将 区 块 链 纪 
系统 需求 侧 进 行 管理 能 够 有 效 对 电力 消耗 前 峰 填 谷 ， 优 化 用 ”入 实时 定价 模型 ， 能 够 有 效 地 提高 微 网 可 再 生 能 源 的 利用 率 。 


电 方式 ， 提 高 电力 系统 的 稳定 性 与 安全 性 。 需 求 响 应 同时 用 户 也 作为 独立 节点 参与 到 电网 决策 中 ， 应 用 区 块 链 交 
(demand response, DR) 是 需求 侧 管 理 的 解决 方案 之 一 。 现 有 易 可 充分 提高 用 户 用 en 。 文 献 [8] 将 
需求 响应 策略 中 通常 分 为 激励 型 需求 响应 (incentive-based — 社会 福利 最 大 化 模型 与 微 电 网 进行 有 效 结合 ， 建 立 了 一 个 计 
DR, IBDR) 和 价格 型 需求 响应 (price-based DR, PBDR)。 价 格 及 不 确定 性 的 双 层 优化 模型 ， 并 使 用 PSO-BBA 算法 进行 求 
型 需求 响应 通过 电价 的 调整 使 得 用 户 改变 其 用 电 模 式 ; 激励 ” 人 解 ， 并 通过 与 确定 性 函数 的 对 比 ， 能 够 更 好 地 起 到 削 峰 填 谷 
型 需求 响应 则 向 用 户 提供 固定 或 随时 间 变 化 的 激励 费用 。 通 。 的 作用 。 文 献 [9] 在 社会 福利 最 大 化 模型 上 对 最 小 供电 量 约 
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过 考虑 用 户 的 行为 ,许多 研究 使 用 基于 价格 的 需求 响应 ,而 束 的 作用 进行 了 讨论 ， 引 入 有 效 成 本 函数 并 提出 了 对 偶 在 线 
实时 定价 是 价格 型 需求 响应 的 重要 研究 方向 ， 该 策略 通过 】 算法 ， 实 现 了 模型 的 改进 。 文 献 [10] 将 实时 定价 问题 表述 为 
接 控 制 电力 价格 以 调整 用 户 侧 负荷 需求 ， 旨 在 通过 提供 实时 ，” 非 合 作 博 弈 问题 ， 并 利用 分 布 式 在 线 算法 进行 求解 ， 对 用 户 
电价 有 效 地 平抑 用 户 的 用 电 需 求 。 交互 过 程 进行 了 更 加 精准 的 描述 。 


n 


收 稿 日 期 : 2022-02-28; 修 回 日 期 : 2022-04-19 ”基金 项 目 : 国家 自然 科学 基金 资助 项 目 (72071130) 

作者 简介 : 王 黄 祺 (1997-)， 男 ， 河 南平 顶 山 人 ， 博 士 研 究 生 ， 主 要 研究 方向 为 智能 电网 实时 定价 、 机 器 学 习 ; 高 岩 (1962-)， 男 (通信 作者 )， 黑 龙 江 
五 常人 ， 教 授 ， 博 导 ， 博 士 ， 主 要 研究 方向 为 智能 电网 实时 定价 等 (gaoyan@usst.edu.cn); 吴志强 (1997-)， 男 ， 安 徽 合 肥 人 ， 硕 士 研究 生 ， 主 要 研究 方向 
为 系统 工程 、 决 策 分 析 ; 李 仁 杰 (1992-)， 男 ， 江 苏 泰州 人 ， 博 士 研 究 生 ， 主 要 研究 方向 为 箱 机 器 学 习 


202205.00076v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 EFH, F: 计 及 负荷 不 确定 性 的 强化 学 习 实 时 定价 策略 第 39 卷 第 9 期 
表 1 符号 说 明 算法 不 同 ， 强 化 学 习 可 在 动态 环境 中 探索 一 些 随 机 行动 并 从 
Tab. 1 Symbol description 经 验 中 学 习 ， 从 而 可 为 求解 复杂 系统 决策 提供 重要 支持 。 强 
符号 符号 描述 化 学 习 简 洁 明 了 且 使 用 奖励 函数 来 评估 决策 行为 ， 通 过 强化 
NE/NIIN 某 区 域 居民 /大 型 /总 用 户 集合 学 习 可 得 到 问题 有 效 的 解决 策略 且 结 果 具 有 收敛 性 。 强 化 学 
T 所 有 时 段 的 集合 习 应 用 于 许多 领域 ， 例 如 游戏 控制 ， 计 算 机 视觉 等 5。 而 
ALS 强化 学 习 动作 空间 /状态 空间 集合 对 于 电力 系统 的 强化 学 习 研 究 具 有 较为 广阔 的 前 景 ， 在 电力 
Dioc | Df 户 n 在 1 时 段 基 本 /可 削减 负 蓓 需求 系统 需求 侧 管理 中 采用 强化 学 习 将 有 效 扩展 新 的 负荷 侧 用 电 
Xps | Xf J n 在 1 时 段 基 本 /可 削减 负荷 模式 中。 
To 基准 电价 近年 来 ， 强 化 学 习 算 法 在 需求 侧 管 理 中 的 应 用 主要 
cp [cp FIER P? BRI gt SCA ENI RR 类 ， 第 一 类 是 站 在 消费 者 立场 ， 面 对 供电 商 的 定价 策略 设计 
X, JP n TE t BEBE SR fg 有 效 的 响应 模式 以 最 大 化 消费 者 的 利益 053。 第 二 种 是 站 在 
X, 用 户 n fer 时段 实 际 总 负荷 公用 事业 公司 的 立场 通过 设计 有 效 的 策略 提高 社会 福利 ， 从 
à, 户 n 在 1 时 段 总 负 蓓 的 随机 变量 而 有 效 提高 包含 用 户 侧 与 供电 侧 在 内 的 福利 04219。Lu SEU 
Sn 的 方差 首次 将 强化 学 习 方 法 应 用 于 需求 侧 管理 ， 提 出 了 分 级 电力 市 
Dia IH P1 nn 在 1 时 段 的 电价 场 的 实时 定价 算法 ， 将 供电 商 与 用 户 的 交互 表示 为 马尔 可 夫 
5, ] 户 价格 弹性 系数 决策 过 程 ， 从 而 动态 确定 最 优 电价 。 文 献 [15] 使 用 强化 学 习 
a, ! f, 1 P UH S 获取 需求 响应 中 特定 设备 的 能 量 调度 ， 并 在 调度 期 间 最 大 化 
LH 传统 能 源 供电 商 1 时 段 供电 量 用 户 的 回报 。 文 献 [16] 应 用 强化 学 习 框 架 与 需求 响应 策略 ， 
a, Ib /c, 有 力 成 本 系数 考虑 到 工业 用 户 与 供电 商 的 交互 过 程 ， 实 现 供电 商 长 期 收益 
L 风光 新 能 源 供电 商 1 时 段 供电 最 大 化 。 文 献 [17] 应 用 强化 学 习 方 法 并 将 微 电 网 视 为 一 个 智 
B JERE TR, t ESK adi tH E 能 体 ， 微 电网 之 间 可 通过 单独 选择 能 源 交 易 策 略 ， 目 标 是 最 
p 风力 发 电 上 时 段 实际 输出 量 大 化 各 个 微 电 网 的 平均 收益 。 文 献 [18] 提 出 了 一 种 基于 神经 
Pa 光伏 发 电 额 定 输出 功率 网 络 和 强化 学 习 算 法 的 多 微 电 网 能 源 管理 方法 ， 运 营 商 通过 
Ge | Goy 光伏 工作 点 实际 /标准 辐射 强度 深度 神经 网 络 来 预测 各 微 网 的 功率 交换 ， 通 过 蒙特 卡 洛 方法 
Tv 光伏 功率 温度 系数 求解 得 到 零售 定价 策略 ， 使 得 运营 商 达 到 利润 最 大 化 与 需求 
Tc I Toig 光伏 发 电 实际 /参考 温度 侧 的 峰 均 比 最 小 化 目标 ， 提 高 用 电 可 靠 性 
Ny 光伏 发 电 设备 数量 然而 上 述 基 于 强化 学 习 的 需求 侧 管 理 研 究 缺 乏 对 社会 福 
Be 风力 发 电机 额定 输出 功率 利 、 碳 交易 与 负荷 不 确定 情况 的 整体 考虑 03-1 。 基 于 上 述 
V Í Vrated 风力 发 电 实际 风速 /额定 风速 分 析 ， 有 必要 对 实时 定价 模型 进行 相应 扩展 ， 使 用 强化 学 习 
Vin / Vos 风力 发 电 切 入 / 切 出 风速 算法 求解 实时 定价 模型 有 显著 优势 ， 考 虑 到 供电 商 产 电 所 带 
Nw; 风力 发 电 设备 数量 来 的 碳 排放 权 以 及 碳 排放 交易 所 带 来 的 成 本 或 收益 ， 本 文通 
pps qs 传统 能 源 供电 商 在 上 时段 的 最 小 /最 大 供电 : 过 引入 碳 排 放权 交易 促进 新 能 源 消 纳 ， 进 而 助力 “ 双 碳 ” 
Ôre | ORE 新 能 源 设备 维护 损失 成 本 系数 标的 实现 。 
ô, là, 传统 能 源 /新 能 源 单位 发 电 碳 配额 分 配 率 本 文 主要 工作 如 下 : 
P. 单位 碳 排 放权 的 价格 a) 考 虑 到 含 传 统 能 源 供 电 商 与 新 能 源 供 电 商 组 成 的 供电 
a. | B. LÀ, 传统 能 源 发 电 的 单位 电量 碳 排放 系数 商 系 统 以 及 居民 用 户 和 大 型 用 户 组 成 的 用 户 系 统 ， 并 充分 表 
6/7 强化 学 习 学 习 率 / 折 现 因 子 示 考 虑 了 供需 双方 的 福利 ， 目 标 为 社会 福利 最 大 。 
从 优化 方法 来 看 ， 上 述 实 时 定价 策略 大 致 分 为 基于 梯度 b) 通 过 引入 强化 学 习 框 架 将 用 户 与 供电 商 之 间 的 交互 过 
优化 算法 的 乓 7 与 基于 元 启发 式 优化 算法 的 5 贡 两 类 。 前 者 程 表述 为 马尔 可 夫 决 策 过 程 ， 利 用 智能 体 与 环境 即 供电 商 与 
如 共 恩 梯度 法 、 牛 顿 法 等 ， 具 有 计算 效率 高 的 特点 ， 但 如 果 全 体 用 户 的 迭代 过 程 学 习 和 获取 最 优 的 实时 定价 策略 。 
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模型 中 存在 非 线性 、 非 光滑 函数 或 者 机 会 约束 等 难以 处 理 c) 将 实时 定价 模型 与 强化 学 习 的 各 要 素 进行 了 对 应 ， 并 
情况 ， 具 有 较 好 全 局 搜索 能 力 的 元 启发 式 算法 如 遗传 算法 、 充分 考虑 了 负 蓓 不 确定 等 情况 ， 从 而 实现 了 对 模型 更 加 精细 
粒子 群 算法 等 ， 大 部 分 与 给 定 的 模型 高 度 独立 ， 可 以 很 好 地 ”地 刻画 。 
解决 前 者 的 问题 。 另 一 方面 ， 现 有 定价 策略 往往 预先 确定 模 dj) 通过 引入 碳 交 易 ， 有 效 地 提高 电力 系统 新 能 源 的 消 纳 
型 的 各 项 参数 且 集 中 式 算法 较 多 ， 在 某 种 程度 上 没有 考虑 到 ” ” 率 ， 对 推动 能 源 可 持续 绿色 发 展 有 重要 的 现实 意义 。 
负荷 不 确定 性 情况 且 对 于 隐私 安全 缺乏 相应 的 保护 措施 。 1 ”系统 模型 
对 大 规模 批量 数据 时 会 出 现 运 算 速 度 过 慢 、 可 靠 性 较 低 等 问 dS 
题 ， 创 新 实时 定价 机 制 具有 重要 的 理论 意义 和 现实 意义 。 考虑 一 种 包含 两 类 供电 商 和 若干 个 不 同类 型 终端 用 户 的 
从 时 间 关 联 性 上 来 看 ， 上 述 研究 主要 将 实时 电价 问题 分 ”智能 电网 系统 (系统 框架 如 图 1 所 示 ， 符 号 说 明 部 分 见 表 1), 
为 多 个 单 时 段 问题 予 以 考虑 [站 ， 每 个 时 段 没有 充分 考虑 整 其 中 供电 商 包含 传统 能 源 供 电 商 与 新 能 源 供 电 商 ， 新 能 源 供 
体 的 状态 转移 特性 而 独立 存在 ， 对 于 实时 电价 模型 交互 过 程 电 由 风力 发 电 与 光伏 发 电 构成 ， 同 时 由 于 新 能 源 供 电 本 身 的 
描述 的 精确 性 有 待 提高 ， 忽 略 了 用 户 用 电 和 供电 商 供电 的 前 间 砍 性 、 不 稳定 性 等 特性 ， 供 电 商 无 法 控制 其 每 时 段 出 力 值 ， 
后 关联 性 ， 而 马尔 可 夫 决 策 过 程 可 以 使 用 状态 转移 和 矩阵 描述 需 根据 风光 机 组 特性 及 当日 天 气 作 出 当日 各 时 段 的 预测 。 即 
负荷 前 后 阶段 的 关系 ， 可 以 充分 考虑 时 段 的 关联 性 。 文 献 ” 用 户 用 电 由 新 能 源 供电 优先 供应 ， 从 而 促进 新 能 源 的 消 纳 。 
[11,13] 基 于 马尔 可 夫 过 程 研究 实时 定价 问题 ， 考 虑 了 参数 已 。 用 户 侧 户 与 大 型 用 户 ， 居 民用 户 能 源 消耗 为 日 常 
知 与 未 知 两 种 情况 ， 并 验证 了 模型 的 合理 性 与 算法 的 可 行 性 。 生活 用 电 ， 而 工商 业 等 大 型 用 户 的 能 源 消耗 往往 是 为 了 更 高 
上 述 实 时 定价 研究 大 多 依赖 于 分 析 模 型 和 确定 性 规则 的 的 利润 。 
传统 算法 。 近 年 来 ， 强 化 学 习 取 得 了 新 的 进展 。 与 传统 优化 段 设 用 户 和 供电 商 直 接 通 过 智能 电表 进行 双向 信息 交互 ， 
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Sum 
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已 IH 


NL S 
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后 
FE 


i DH al 
[d 


Br. 
Ne - (1, 

表示 大 型 用 

供电 商 与 


teT, 


权 交 易 情景 ， 


商 侧 通 过 实时 定 


可 以 根 扩 


T -(12.3.--., 


IH, $: 


计 及 负荷 不 确定 性 的 强化 学 习 实 时 定价 策略 


以 通过 智能 
PIAA 


能 电表 获 


电表 获取 / 
取 下 一 时 段 供 


j 户 的 电力 消耗 情况 ， 同 时 
电 商 提供 的 价格 信号 。 


略 动 态 调整 


价 策略 实现 
也 们 的 能 源 需求 从 而 降低 购 


利润 最 大 化 ， 用 户 侧 通过 
成 本 ， 


pe 
户 储 人 


昌 用 户 侧 的 负荷 需求 和 供 


j 户 电力 交互 以 一 天 为 周 
是 所 有 时 段 的 集合 ， 
价格 每 小 时 更 新 一 次 。 同 时 本 文 考虑 到 


电 侧 产 电 成 本 交互 动态 


mn) 表示 居民 用 户 集合 ， Nt -ImeLme2,n) 
&. N 代表 全 体 用 户 集合 ，N=N*UN'。 
将 其 分 为 ! 一 个 时 段 ， 


HH, 


模型 假设 :=24 ， 即 
负荷 不 确定 与 碳 排放 


计算 中 心 


电价 信息 更 新 


1.1 

一 般 情 
量 的 消耗 后 
求 特征 ， 本 
REH, 


图 1 


Fig. 1 


用 户 侧 模 型 


建立 了 社会 福利 最 大 


Xin 


化 


标 下 


电量 信息 聚合 更 
新 


系统 框架 


况 下 ， 用 户 在 


电力 市 场所 需要 的 电量 和 对 相同 电 


System framework 


的 效 


j 值 不 尽 相 同 。 


根据 用 户 侧 负荷 优先 级 和 需 


文 假 设 用 
在 特定 


以 灵活 调 


配 使 ) 


ZB 


灵活 调节 


T Un] « 


向 应 中 ， 
用 电 需 求 


假设 用 
Tg VAS ff fn 


HP n 


关系 如 下 : 


削减 负荷 。 
格 弹性 系数 


X Pan 


1 负荷 函数 
基本 负荷 需要 严格 满足 ， 即 不 能 通过 
如 生活 必需 用 电 
和 时 段 的 基本 负荷 Xe 


， 从 而 实现 供需 


Ff Taj 


用 时 间 的 负荷 则 
热水器 等 可 


P 


jap, 1j 


basic — Dbasi 
Xp = Diss. 


户 n 


^X. Hi 


Diu 


配置 分 为 两 类 ， 基 本 负荷 
时 段 内 固定 需求 的 负荷 称 


与 可 削 


为 基本 负荷 ， 
称 为 可 削减 负荷 。 用 户 可 通 


削减 负荷 实现 需求 响应 。 在 需 
供电 商 通过 价格 的 动态 调整 引导 用 户 改 变 该 时 段 
平衡 。 


需求 响应 


-emm 


与 基本 负荷 需求 量 05" 


(1) 


同时 ， 考 虑 可 灵活 调配 使 用 时 间 及 功率 的 负荷 ， 称 为 可 
可 削减 负荷 与 当前 时 间 的 
E t EBERT BI 


电价 以 及 当前 用 户 的 价 
减负 荷 的 定义 为 9 


Dr 0-6, 


scm Ren 


其 中 pi 表示 | 
在 1 时 段 可 削减 负荷 需求 量 ， 
弹性 系数 。 价 格 的 升 高 导致 用 户 实际 负荷 小 于 预期 需求 量 


„min 
Cn 


户 革 在 上 时 段 需 支付 的 电 
En > 0 为 上 


pyne N,YteT 


Ur, Dw 表示 用 


j 户 4 在 1! 时段 的 价格 


的 实时 定价 模型 。 


户 n4 在 1 时 段 总 负荷 名, 为 


ChinaXiv 合 作 期 刊 
第 39 卷 第 9 期 


Š n =X, n +n Vne N,VteT 


其 中 a - N (0, 0) 是 一 个 随机 变量 且 服 从 
刻画 了 用 户 侧 负 荷 的 不 确定 性 


pu, 


由 于 可 削减 负荷 


LAX 


EBUR IREE, 


减负 荷 能 够 有 效 实现 
1.1.2 效用 函数 


E. 
度 。 假 设 每 


荷 的 需求 有 着 不 同 的 偏好 。 


个 


微观 经 济 学 中 ， 效 用 函数 U(x) 可 以 刻画 
] 户 对 于 不 同 电 价 的 行为 均 是 独立 的 ， 


5 n 可 以 有 效 体现 不 同 


网 前 峰 填 谷 。 


E 态 分 布 ， 


(5) 


EN 


用 户 的 需求 偏好 ， 根 据 实际 


OU (x) 
e s. 
a) Ox DS 


情况 ， 效 
b)U(0,8)-0 (VB»0) 。 现 


用 户 
时 段 的 效用 函数 U(X,) 可 


Hp XUI P! 4 在 1 时 段 总 负 


的 效用 函数 常用 二 次 函数 表示 [2324， 
以 表示 : 


即 用 


Af. A0, a »0JgH 


用 


ov >0 


合理 调度 可 前 


户 的 满意 程 


对 负 


户 neN 在 teT 


(6) 


ZI M, 


在 实际 应 用 中 应 根据 历史 数 ] 


不 同类 型 用 


户 效用 的 变化 程度 可 


通过 参数 ， 


He + pd 


F3 2& 4p 


与 居民 用 以 ， 在 


用 会 随 着 电力 消费 水 平 的 增加 而 二 


定 负荷 消费 


居 和 用 户 调研 来 
刻画。 
大 型 用 户 


$3 dU. CRI 


I3 


Bü 


Di 
| 


内 ， 
， 当 达到 预 


大 负荷 量 时 ， 效 用 
饱和 状态 。 
综 上 所 述 ， 


用 户 侧 福利 函数 表示 如 下 : 


z^ -E[Y ,> .UV( 
teT neN 


1.2 供电 商 模型 


将 保持 恒定 ， 但 ) 


用 户 侧 福利 可 以 表示 为 用 
值 函 数 减 去 所 支付 成 本 的 期 望 。 


1/91 f uisi 


"d 


&,,)- p, X,,)l 


电力 的 生产 与 传输 。 近 年 来 ， 


大 增加 了 电力 系统 的 随机 性 。 


供电 商 按照 用 户 的 电力 需求 向 用 


风电 、 光 伏 等 新 


令 aC AR FR P 


户 提 供电 力 ， 从 1 


AL, 


户 效用 
dit. 


当前 时 段 效 用 
| 福利 ， 


能 源 的 


ps 


A 
定义 的 最 
通常 不 会 达到 


则 


令 上 5 和 五 分 别 代表 传统 能 源 


与 新 能 源 供电 商 在 1 时 段 的 发 电量 ， 


由 于 供电 


商 总 供 


OE 


要 覆盖 所 有 用 户 的 需求 ， E 
LER E 需 满足 如 下 约束 : 


需 满足 机 组 发 


MEX osmen 
neN 


Ie «Is [pe 


IL min 和 pe 分 别 
最 大 发 电量 。 


H. rH 
N 


RF ZEE UR D 


Ge iE 


EKHAR, 


(8) 
(9) 


t 电 商 在 上 时 段 的 最 小 与 


1.2.1 传统 能 源 供电 商 
假设 传统 能 源 供电 商 成 本 主要 来 源 于 化 石 能 源 消耗 和 运 
行 维护 ， 传 统 能 源 发 电 成 本 函数 是 一 个 单调 增加 的 且 严 格 凸 
的 函数 ， 目 前 普遍 采用 二 次 函数 表示 供电 商 发 电 成 本 PC3]， 
供电 商 在 :时段 的 发 电 成 本 函数 CHO) 如 下 : 
CL (I) 2 a (Y +b, +c, (10) 
其 中 g 指 传统 能 源 供电 商 在 上 :时段 内 提供 的 总 电量 ， «0, 


KEN, m JEE 


司 时 供电 商 
电价 ， 
司 类 型 型 
证 供需 


双方 


4 XH P nd 


DESEE] 


同时 由 


cp" 和 cr 分 别 代表 
j 户 的 电力 价格 系数 
以 合理 的 价格 进行 


的 


电价 


也 应 该 如 


FE 一 个 固定 的 
B 力 价格 系数 的 下 界 与 上 界 ， 不 
也 不 同 。 


电力 价格 约束 可 保 


通过 


时 


RAH, KRY 


电力 装置 通 


i a IH 


i 临 负荷 波动 。 在 考虑 负荷 波动 情况 下 ，| 


BIZA, 


段 中 的 电力 总 负 
IP: 


— YV basic flex 
X,-Xm EX 


于 现实 环境 的 变化 ， 


,vneN,vteT 


T, 包含 基本 


(4) 


考虑 到 | 


户 侧 负荷 的 随机 性 ， 


b>0,c>0 为 预 设 参 数 。 
1.2.2 新 能 源 供电 商 


由 于 光照 强度 、 风 速 等 自然 


资源 的 间歇 性 


E， 新 能 源 供 


R E A 


AXE 
则 将 造成 弃 风 弃 光 现 象 ， 大 大 破坏 系统 的 稳定 
不 


性 ， 若 系统 可 调 


况 ， 本 文 假设 新 型 能 源 供电 


\ 具 有 存储 功能 且 


发 电 之 间 没 有 耦合 约束 ， 


Hl 


提高 新 能 源 消 纳 率 。 


时 


供电 商 优先 使 用 


性 。 针 对 


此 


且 新 能 源 供 


新 能 源 供 


, 


JRZ U(x) 需要 满足 : 
的 实时 定价 模型 中 
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录用 定稿 


光伏 发 电 输 出 主要 取决 于 到 达 地 面 的 太阳 辐射 强度 、 环 
境 温度 和 光伏 模块 本 身 的 特性 。 光 伏 发 电机 组 在 1 时 段 内 的 
实际 输出 功率 由 为 
EP" = PR“ (G, / Gov 0 — ev (T, Tov r ))N pv (11) 
示 额 定 光 伏 输出 功率 ; Go 表示 工作 点 的 辐射 强 
BE. Gr 表示 标准 辐射 强度 ; Ww 表示 功率 温度 系数 ， 开 表 
示 工 作 点 的 电池 温度 ， To 表示 参考 温度 ; Nev 代表 光伏 发 
电 设备 数量 。 
风力 发 电 输 出 功率 与 当前 时 段 内 实际 风速 有 关 。 一 般 来 
说 ， 风 速 波动 服从 瑞 利 分 布 ， 风 力 发 电机 组 在 1 时 段 内 实际 
输出 功率 为 四; 


H.rH pue 


x 


0, V X Vins V > Vou 

pur 24 n Ped N yr, vy V< Vraa (12) 
Vrated — Vin 

PR Nyrs Vrated S V < Vout 
Hp v 代表 实际 风速 ; Vaea 是 额定 风速 ;ww T Vo 分 别 代 表 
切入 和 切 出 风速 R 表示 额定 输出 功率 ; ww 代表 风力 发 

电 设备 数量 。 

新 能 源 供电 包含 风力 发 电 输 出 与 光伏 发 电 输出 ， 石 表 


示 新 能 源 供电 在 1 时 段 的 总 输出 功率 ， 表 述 如 下 : 
L-BUTBU.NTeT (13) 
于 新 能 源 发 电 成 本 可 忽略 不 计 ， 假 设 新 能 源 供电 商 成 
本 来 自 于 后 期 运行 维护 的 费用 ， 本 文 使 用 二 次 成 本 函数 表示 
1 时段 新 能 源 设备 运行 过 程 中 维护 损失 成 本 C5， 表 述 如 下 : 

CE (17) 2óy (LY * og E, Vt eT (14) 
ae>0 为 新 能 源 设备 维护 损失 成 本 系数 。 
1.2.3 && x: Zy FEAL 

碳 交 易 机 制 下 通过 碳 排 放权 交易 可 促进 电力 系统 “ 双 碳 ” 
目标 的 实现 ， 在 碳 排放 权 交 易 体 系 下 ， 国 家 会 根据 供电 商 的 


H.rH o4 >0， 


x 


发 电 总 量 分 配 相应 的 碳 排放 配额 。 若 供电 商 的 实际 排放 量 小 
于 分 配 的 排放 额度 ， 则 可 将 剩余 额度 在 市 场 上 出 售 获 利 ; 若 
供电 商 的 实际 碳 排放 量 超 过 了 分 配 的 排放 额度 ， 须 在 市 场 上 


购买 超出 部 分 的 碳 排 放权 ， 并 由 此 产生 碳 过 排放 成 本 PC9。 

供电 商 可 通过 传统 能 源 发 电 与 可 再 生 能 源 发 电 获得 碳 排 

放权 ， 发 电机 组 在 :时段 分 配 的 碳 排放 配额 EP 如 下 : 
E? =8, E (15) 

其 中 和 和 5 分 别 代表 传统 能 源 与 新 能 源 发 电 的 单位 碳 排放 

配额 分 配 率 。 

考虑 传统 能 源 发 电 作为 碳 排 放量 来 源 ， 传 统 能 源 发 电 

机 组 在 :时段 实际 碳 排放 量 如 下 所 示 忆 1; 

Ec -a (UY + pL +A (16) 

其 中 a, , Be, A 为 传统 能 源 发 电 商 产 单位 电量 的 碳 排放 系数 。 

综 上 ， 可 得 上 :时段 碳 交易 成 本 C, 计算 公式 如 下 : 

CF = p, (E£ — E?) (17) 

其 中 p. 是 市 场 上 每 单位 碳 排 放权 的 交易 价格 ， C, 20 RRIK 

E 放 过 量 产生 的 碳 交 易 成 本 ， 反 之 为 碳 交 易 收 益 。 
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1.3 负荷 不 确定 情况 下 实时 定价 模型 
考虑 社会 福利 最 大 化 目标 ， 计 及 负荷 不 确定 情况 下 的 智 
能 电网 实时 定价 模型 (19) 表 述 如 下 : 
max 447^ +(1— 44 )7^ 
s.t. ih md eN,vteT (19) 
1-& 分 别 表示 用 户 侧 福利 与 供电 商 福 利 的 权 
重 系数 。 的 取 值 由 供电 商 的 定价 策略 与 用 户 的 需求 弹性 
共同 决定 。 可 以 发 现实 现 最 优 社会 福利 时 ， 用 户 的 总 负荷 与 
供应 商 的 电力 供给 是 相同 的 。 
1.4 目标 函数 的 转换 
标 函 数 式 (19) 可 以 分 为 用 户 和 供电 商 两 部 分 ， 根 据 期 
望 运 算 性 质 ， 有 
E[X,,] - ELX,, 4, ] - X,, + EO] = X, 
则 目标 函数 展开 表示 如 下 : 


内 中 4 e(0,D ， 


N 


m = ED Y pu X, -X (CI) + CUL) + CP) 
teT neN teT 
-E[Y Y p, X,,.1- 9 (CH Q5) +C Q5) € CF) 
teT neN teT 


=È) psX, -X (CI) CI D) cr) 
teT neN. teT 


ne = HY P3 (U(X,,) - p, X,,)] 


函数 定义 式 (6) 可 知 ， 效 用 函数 U(X,,) 的 期 望 : 


前 文 效 


EIU(X,,)]=p,ELX,, + &,1- EX, + 


a, Qu ur 
BX = (Xin y- 295. 


上 节 中 所 定义 随机 变量 5 的 期 望 与 方差 定义 ， 令 
Ü(X,)-EUQG,)), Mil 


Qn Qn ， A 
PX, -7% ) 773 95. ocx, P 
J(X,,)- z " (20) 
(B) «, o? x >Ê 
2a, 20 Qn 


T= Ü (X,,)- p X) 


于 是 不 确定 性 模型 式 (19) 可 通过 期 望 转 为 确定 性 模型 式 (21): 


max Y V (uU Xi) + p, X,,) 


teT ne) 
+a -DX (CH Uf) + CIEQZ) e CE) en 
teT 


s.t. (8)-(9), (13) Vn e V, Vt eT. 
2 算法 设计 
本 节 将 实时 定价 模型 转换 为 一 种 马尔 可 夫 决 策 过 程 ， 


于 马尔 可 夫 过 程 的 强化 学 习 能 够 很 好 地 应 用 于 单 智能 体 环境 
中 ， 本 文 使 用 一 种 高 效 且 适应 多 种 环境 的 Q 学 习 算法 进行 
模型 求解 。 


考虑 包含 传统 能 源 供电 商 以 及 新 能 源 供电 商 构 成 的 供电 


合 ， 在 不 考虑 供电 商 之 间 电 力 交 互 的 情况 下 ， 供 电 商 通 
句 用 户 出 售 电力 获得 售 电 收 益 ， 同 时 由 于 存在 非 清洁 能 源 
会 带 来 相应 碳 排放 量 从 而 产生 碳 交易 成 本 ， 社 会 偏好 使 
环境 友好 型 的 清洁 能 源 ， 减 少 碳 排放 ， 促 进 电力 系统 的 可 
持续 发 展 。 

定义 供电 商 福利 为 售 电 收入 与 成 本 之 差 的 期 望 ， 供 电 商 
的 目标 是 最 大 化 其 福利 。 而 供电 商 收入 来 源 于 用 户 所 付 电费 ， 
成 本 包含 传统 能 源 与 新 能 源 供电 成 本 与 碳 交易 成 本 ， 则 供电 
商 福利 可 表示 如 下 : 


T = EY Y p, X, -DCE) tC (L )+CE)] (18) 
teT ne N- teT 


gi mb ODD m 


v [5^ * 2] (reinforcement learning, REL) 是 在 不 同 环 
学 习 的 一 种 最 优 动 作 决 策 技 术 P8， 其 最 重要 的 特征 是 智能 
体 学 习 并 记录 相应 的 反馈 ， 目 标 是 最 大 化 智能 体 的 长 期 累积 
奖励 。 智 能 体 通 过 参数 的 调整 自发 选择 较 大 奖励 值 的 动作 ， 
有 自我 学 习 与 自我 更 新 的 优势 ， 交 互 过 程 如 图 2 所 示 。 
时 间 差 分 (temporal-difference learning, TD) 算 法 是 强化 学 
习 的 核心 算法 ， 常 见 的 Q 学 习 方 法 就 属于 TD 算法 ， 其 值 
函数 更 新 公式 为 

Q(s,a) 7 Q(s,a) x O(r - yQ(s ,a ) -Q(s.a)) (22) 
其 中 6s[00 是 学 习 率 ，ys[0] 是 折 现 因子 , 表明 了 当前 奖励 
与 未 来 奖励 的 相对 重要 性 。 


a 
H 
my 


mu 
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最 优 值 。 


通过 实施 策略 AA) 


转移 概率 Pi 与 回报 函数 仿 ， 
作 值 函数 的 贝尔 曼 (Bellman) 方 程 04， 
Q.(s.a)- D PIR; + EQ, (5'.a^)l 


因此 ， 最 优 策 


s 下 所 


代 的 方法 求解 P29， 


最 终 ， 本 文 可 以 得 到 最 优 策 


其 中 ses 表示 状态 集合 。 


ChinaXiv 合 作 期 刊 


PIRS s 转移 至 状态 s! 而 获得 


F 此 本 文 可 以 得 出 最 终 和 欠 代 动 


Q4) 


LH 


报 R 


KA 下 的 最 佳 状态 值 函数 Vs) 可 以 表示 为 


Vr () = max) PLR +y Q^] 


Q3) 


其 中 VG) 表示 采用 最 优 策略 下 的 状态 值 函 数 ，a 表示 状态 
可 能 的 动作 。 

在 状态 转移 概率 P 和 累积 
Bellman 最 优 方 程 是 非 线 性 的 ， 


已 知 的 情况 下 ， 上 述 
最 优 策略 r (als) 3S6 C HIS 


根据 迭代 求解 的 对 象 是 值 函 数 还 是 状态 
动作 值 函 数 可 以 将 迭代 算法 分 为 值 欠 代 与 策略 迭代 两 类 。 


EJ 


l,a =arg maxQ, (s,a) 


A 智能 体 


录用 定稿 EF, F: 计 及 负荷 不 确定 性 的 强化 学 习 实时 定价 策略 第 39 卷 第 9 期 
c) 状 态 转移 概率 P : 对 应 式 (24)， 定 义 实 时 定价 策略 下 
状态 转移 概率 PE Pa’ Paa 表示 为 智能 体 在 状态 下 采取 动 
- lE a 后 将 会 环境 转移 到 下 个 阶段 s 的 转移 概率 。 
d) 折 现 因子 > : 7 是 折 现 因子 ， 指 当前 决策 动作 下 未 来 
奖励 期 望 所 占 的 比例 。 一 般 来 说 ，7 越 大 ， 未 来 奖励 相 较 于 
: 当前 奖励 的 重要 程度 越 高 ， 当 前 时 段 的 决策 将 对 下 一 状态 产 
图 2 ”强化 学 习 中 智能 体 与 环境 的 交互 过 程 生 重 要 的 影响 ， 若 折 现 率 为 0 即 只 考虑 当前 奖励 将 会 造成 算 
Fig.2 The interaction process between the agent and 法 的 “短视 ”优化 。 
environment in reinforcement learning e) 回 报 R : 在 本 节 中 ， 实 时 定价 模型 考虑 社会 福利 最 大 
时 间 差 分 算法 结合 了 蒙特 卡 洛 和 动态 规划 (dynamic ”化 作为 目标 ， 将 回报 与 社会 福利 值 对 应 ， 因 此 单一 阶段 的 县 
programming, DP) 方 法 ， 与 蒙特 卡 洛 相 似 的 是 可 以 直接 从 历 — 体 回 报 定义 如 下 : 
史 经 验 中 学 习 。 与 DP 类 似 的 是 使 用 后 继 状 态 的 值 函 数 对 当 
前 状态 的 值 函数 进行 更 新 。 a d " 
在 每 个 时 间 段 中 ， 知 能 体 期 望 最 大 化 累计 折扣 回报 ， 即 P E "e 
最 大 化 当前 时 段 和 后 续 时 间 段 的 回报 总 和 ， 可 表述 如 下 : T 
MM NM 本 综 上 ， 实 时 定价 策略 下 的 Q 值 函数 更 新 式 如 下 : 
K Q' (s,,a,) €- (1- 6)Q*" (s, a, ) +O, + YO (sn, 4) (30) 
强化 学 习 求 解 最 优 策 略 即 转换 为 求 状态 -动作 值 函 数 的 其 中 0 e[0.1] 是 学 习 率 。 


ILA WMORSR 


本 文 所 提 模 型 


图 3 强化 学 习 实 时 定价 框架 


Fig.3 Real-time pricing mechanism based on reinforcement learning 


在 迭代 


开始 即 +=0 时 ， 模 型 的 目标 是 最 大 化 当天 所 


时 


。 第 一 个 时 段 结束 后 ， 目 标 将 转换 为 最 大 化 剩余 


励 。 在 每 个 时 间 段 的 末尾 最 大 化 一 天 中 剩余 时 段 


Q 学 习 实 时 定价 


t LLL 和 电价 Pin o 


， 最 优 供电 量 IPIE. 与 最 优 


HO. fec): 


及 观察 下 一 个 状态 Sas 


] e- greddy SE WE P 


供电 量 与 负荷 。 


1]， 此 


i ds Q6) 段 的 总 效益 
ee 时 段 的 总 奖 
Q 学 习 用 于 求解 实时 定价 模型 时 ， 实 时 电价 问题 可 以 表 ”的 奖励 ， 可 充分 考虑 到 时 间 的 前 后 关联 性 ， 
述 为 马尔 可 夫 决 策 过 程 ， 需 要 基于 马尔 可 夫 决 策 过 程 确定 强 。 机 制 如 下 。 
化 学 习 模 型 要 素 ( 5S ,4,P,,R)B0。 通 过 智能 体 不 断 选 择 针 算法 1 Q 学 习 实 时 定价 机 制 
对 环境 的 策略 并 依据 来 自 环 境 的 反馈 逐步 迭代 ， 获 取 到 最 佳 输入 : 预 设 参数 ， 初 始 负荷 值 X\ 、 供 电量 
策略 ， 即 最 优 的 实时 电价 是 最 佳 策 略 的 选择 过 程 。 供 电 商 根 输出 ， 最 优 动作 值 函数 Or* ， 负 荷 X 
据 当 前 时 间 段 用 户 侧 用 电量 设置 电价 即 策略 ， 然 后 用 户 根 电力 价格 Pin o 
电价 从 上 一 状态 转移 到 下 一 个 状态 。 此 转移 过 程 主要 取决 于 a) 数据 初始 化 ， 初 始 化 动作 值 函数 O (s,a)=0,k =0,t=0 ; 
当前 时 段 的 行动 和 用 户 上 一 个 时 间 段 的 状态 ， 应 用 强化 学 习 b) ikf&: kk; 
框架 (如 图 3 所 示 ) 表 示 供 电 商 与 用 户 之 间 的 能 源 交易 策略 ， (a) 对 每 一 轮 循环 ， 重 复 1 1+1; 
以 充分 提高 社会 整体 福利 。 (b) 如 果 |C -Qe|«ó pr, Bib CA H 
a) 状 态 空间 5 : 定义 状态 空间 时 需要 综合 考虑 对 决策 问 (c) 面 对 初始 策略 ， 观 察 状态 s, 并 选择 一 个 动作 a ; 
题 有 影响 的 因素 。 对 于 实时 定价 问题 来 说 ， 状 态 空间 5 由 负 (d) 智 能 体 观 察 收益 值 函 数 ，b 
荷 需求 、 负 荷 和 时 段 组 成 。 Pi, 代表 供电 商 对 用 户 在 1 时 段 (e) 更 新 动作 值 函数 
内 提供 的 电价 。 Xo 表示 在 用 户 接 收 到 供电 商 的 价格 信号 后 Q (,.a,) €- 0—0)Q (s, a,) +, YQ (Spas 4) ; 
用 户 所 对 应 的 能 源 需 求 量 ， 可 视 作 用 户 对 电价 的 反馈 而 实时 (ff) 检 查 是 否 完成 一 个 周期 ， 如 果 +=T， 跳 出 循环 。 否 则 转 (g); 
更 新 得 出 的 。 状 态 空间 集合 表示 如 下 : (g) 通 过 式 (2) (7) 和 (28) 计 算出 实时 电价 、 
S -is|s, = (Xn pu HE] Q7) 强化 学 习 寻 优 常 见 的 方法 是 使 
b) 动 作 空间 4 : 由 智能 体 来 输出 动作 即 供电 商 提供 的 电 ”策略 可 选择 具有 给 定 概 率 分 布 的 随机 动作 。 在 一 天 开 


介 Pin 


输出 的 决策 动作 是 一 个 连续 变量 ， 


无 须 离 散 化 操作 


> 


此 ， 本 节 将 动作 空间 设 


为 一 个 连续 的 


4={falas[cnnzro,cne7zo]} 


电价 区 间 范 围 。 
Q8) 


智能 体 即 供 


策略 mw 即 初 始 供 


即 获得 一 定 


始 时 , 


有 商 首先 在 给 定 状态 的 价格 边界 内 随机 选择 初始 
价格。 选择 初始 策略 后 ， 智 能 体 可 以 立 
的 奖励 ， 同 时 智能 体 还 将 观察 时 段 中 环境 并 更 新 
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录用 定稿 


Q 值 即 社会 福利 值 。 随 着 学 习 深 入 与 供电 商 反复 的 价格 调整 ， 
Q 值 通过 智能 体 与 环境 学 习 而 增加 最 终 收敛 到 最 大 值 。 当 Q 
学 习 算 法 实现 了 足够 多 的 状态 与 动作 后 ， 算 法 可 以 保证 模型 
收敛 至 最 优 函数 3。 当 IC:-oels5 时 ， 满 足 终止 条 件 ， 模 
型 将 收敛 至 最 优 值 即 最 大 社会 福利 值 ， 同 时 获得 最 优 的 状态 


空间 。 


3 ”数值 仿真 
31 FHER 

本 节 介 绍 数值 仿真 实验 ， 以 验证 模型 的 合理 性 与 算法 的 
有 效 性 。 假 设 某 个 区 域 存在 供电 商 与 一 个 社区 ， 考 虑 了 含 传 


统 能 源 与 新 能 源 发 电 的 供电 商 与 包含 20 个 居民 用 户 与 5 个 
大 型 用 户 的 社区 ， 而 智能 电表 可 以 通过 聚合 同类 型 用 户 的 用 
电信 息 进 行 统一 调度 从 而 有 效 保护 用 户 的 隐私 。 本 文 考虑 基 
于 典型 日 的 光伏 和 风电 出 力 ， 如 附录 中 图 Al 所 示 。 因 此 ， 
直接 参与 电力 交易 的 一 天 内 是 不 同类 型 用 户 的 总 负荷 。 本 文 
采用 文献 [33] 中 的 居民 及 大 型 用 户 负荷 数据 并 按照 相应 的 比 
例 进行 调整 作为 本 文 数据 来 源 ， 两 类 用 户 各 个 时 段 的 负荷 需 
求 见 图 A2 和 图 A3。 

实验 环境 设置 如 下 : Intel 8259U, RAM 8G, Windows 
10 操作 系统 ，Python 3.9 作为 编程 环境 。 算 例 的 详细 参数 见 
附录 中 表 3~6， 价 格 弹性 系数 见 附 表 3， 碳 交易 价格 即 碳 交 易 
市 场 中 单位 碳 排 放权 的 价格  ， 取 基准 方案 下 每 吨 130 元 P7。 
考虑 到 不 同 用 户 对 于 电价 的 不 同 反 应 ， 对 不 同类 型 用 户 设置 
不 同 的 效用 参数 时， 用 户 效用 参数 及 服从 均匀 分 布 ， 用 户 
侧 模 型 参数 设置 详 见 表 4。 强 化 学 习 算 法 初始 参数 值 设 置 及 
供电 侧 各 类 参数 见 附 表 5， 权 重 系数 w 由 算法 自 适 应 选取 。 


同时 ， 本 文 同时 考虑 将 上 海 市 分 时 电价 与 所 提 实 时 定价 模型 
进行 对 比 ， 分 时 电价 见 表 6。 
3.2 结果 分 析 

用 户 侧 实时 电价 与 负荷 削减 量 分 别 如 图 4 和 5 所 示 ， 从 


图 4 中 也 可 以 看 出 两 类 用 户 实 时 电价 趋势 相同 。 将 高 峰 时 段 
(如 10:00-15:00，18:00-21:00) 与 非 高 峰 时 段 ( 如 21:00-7:00) 相 
比较 ， 可 以 发 现 高 峰 时 段 的 用 户 电价 变化 率 与 负荷 削减 比率 
高 于 非 高 峰 时 段 ， 这 是 由 于 高 峰 时 段 电力 价格 弹性 系数 较 高 ， 
价格 的 变化 对 于 需求 侧 削 峰 填 谷 具 有 更 好 的 效果 ， 供 电 侧 可 
在 较 小 的 电力 价格 调整 下 取得 较 大 的 调控 力度 ， 同 时 价格 区 
闻 约 束 使 电价 在 保持 合理 的 范围 。 图 5 表示 两 类 用 户 的 负荷 
总 削减 量 ， 从 图 5 可 以 发 现 大 型 用 户 的 负荷 削减 量 大 于 居民 
用 户 ， 这 是 由 于 价格 区 间 约 束 大 型 用 户 具 有 较 高 的 电价 旦 在 
高 峰 期 的 电价 波动 性 较 高 。 


k= 


电价 (元 /kWh) 


123456 7 8 9101112131415161718 192021222324 


图 4 用 户 侧 实时 电价 
Fig.4 Real-time electricity prices for the user side 


图 6 为 用 户 侧 福利 值 ， 可 以 看 出 大 型 用 户 福利 值 高 于 居 


民用 户 福 利 值 ， 同 时 大 型 用 户 电价 在 用 电 高 峰 期 间 变 化 率 较 
大 ， 即 用 户 参 与 负荷 调控 的 意愿 较 高 。 用 户 面 对 供 电 商 电价 


的 变化 按照 福利 最 大 化 目标 调整 自身 负荷 。 


光伏 等 新 能 源 供 
发 电 成 本 ， 图 8 
电 商 福利 ， 供 电 
实际 总 碳 排 量 ， 
下 模型 的 合理 性 


负荷 前 减 量 kW-h 
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图 5 


户 侧 负荷 削减 


Fig.5 Load reduction of the user side 


一 一 居民 用 户 
一 一 ”大 型 用 户 


用 户 侧 福利 值 


n 23456789101112131415161718192021222324 
时 段 /h 


图 6 


户 侧 福利 值 


Fig.6 Welfare values of the user side 


图 7 与 图 8 反映 了 供电 商 最 终 的 供电 量 、 供 
取得 最 优 社会 福利 时 用 户 总 负荷 与 供 
供电 量 相同 。 在 考虑 碳 交易 的 情况 下 ， 供 电 商 优先 使 用 风电 、 


碳 交 易 成 本 ， 当 了 


电 商 福利 与 


中 碳 


E, ERRA 
FE 放 成 本 为 负 值 ， 即 碳 交 易 能 
有 获得 的 碳 排放 权 配 额 超出 


商 通 过 新 能 源 发 


能 源 供电 压力 的 同时 降低 了 


ELTE A 


增加 供 


了 效 提高 了 供电 侧 福利 。 算 例 验证 了 碳 交 易 
与 有 效 性 ， 同 时 碳 交 易 的 普及 能 够 有 效 推进 
能 源 系 统 绿 色 发 展 ， 从 而 在 社会 层面 促进 新 能 源 的 有 效 消 纳 。 


供 


电 商 供电 量 
总 供电 量 
100 上 一 一 传统 能 源 供电 量 
一 一 新 能 源 供 电量 
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图 7 总 供 
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传统 能 源 与 新 能 源 供 
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Fig.7 Total power supply, the amount of power supplied by 


traditional and new energy suppliers 
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Fig. 8 Welfare values and carbon trading costs of the supply side 
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